Karpathy 线程：关于大量使用 Claude/Codex 编程的若干笔记

Andrej Karpathy @karpathy 2026-01-26

这里是一些最近大量使用 Claude 进行编程后的随手笔记。

编码工作流。 随着最近 LLM 编码能力的提升，和很多人一样，我很快就从 11 月份“80% 手写+自动补全、20% agent”切换到了 12 月份“80% agent、20% 编辑+收尾”。也就是说，我现在确实主要是在“用英语编程”，有点不好意思地用文字告诉 LLM 应该写什么代码。自尊心多少会受点伤，但一旦你适应、配置、学会使用并真正理解它的边界，以这种“大块代码动作”方式操作软件的收益实在太大。对我来说，这是二十多年编程生涯里基础工作流最大的变化，而且只用了几周就发生了。我猜现在工程师群体里已经有相当高的双位数比例在经历类似转变，但普通大众对此的认知可能还停留在很低的个位数百分比。

IDE、agent swarm 与可错性。 现在“已经不需要 IDE”与“agent swarm 万能”这两种说法，在我看来都说得太满。模型当然仍然会犯错；只要你真的在乎那份代码，我就会建议你像鹰一样盯着它，而且最好在旁边放一个好用的大 IDE。如今的错误不再主要是语法问题，而是更微妙的概念性错误，像一个有点草率、急躁的初级工程师会犯的那种。最常见的问题是：模型替你做了错误假设，然后一路跑下去却不核实。它们也不太会管理自己的困惑，不太主动请求澄清，不太会暴露不一致、不太会呈现 tradeoff，也不太会在该 push back 的时候 push back，仍然有点太迎合。进入 plan mode 会好一些，但我仍然觉得需要某种轻量级 inline plan mode。它们还特别喜欢把代码和 API 复杂化：抽象膨胀、死代码不清理，等等。它们可能会实现一个低效、臃肿、脆弱的一千行方案，而你只要说一句“呃，其实不能直接这样做吗？”，它们就会回答“当然可以！”，然后立刻把它砍到一百行。它们有时还会顺手改掉或删掉它们不喜欢、或没看懂的注释和代码，即使那些内容与当前任务无关。尽管我已经在 CLAUDE.md 里做过一些简单约束，这些问题仍然存在。即便如此，总体上它依然是巨大的净增益，我已经很难想象回到纯手工编码。TL;DR：每个人都会形成自己的工作流；我现在的模式是左边 Ghostty 开几个 CC session，右边 IDE 用来读代码和做少量手工编辑。

韧性。 观察一个 agent 顽强地解决问题很有意思。它们不会累，不会泄气，只会继续尝试，而人类往往早就放弃、改天再战了。看着它为同一个问题挣扎很久，最后 30 分钟后突然攻克，这是非常“feel the AGI”的时刻。你会意识到，耐力其实是工作的核心瓶颈之一，而有了 LLM，这个瓶颈被大幅推高了。

加速。 “LLM 帮助带来了多少速度提升”并不好衡量。我当然感觉自己做原本要做的事快了很多，但更主要的变化是：我会去做更多原本根本不会做的事，因为 1）很多代码以前不值得写，现在值得了；2）以前由于知识或技能门槛而不敢碰的代码，现在也能靠近了。所以当然是加速，但更像是边界扩张。

杠杆。 LLM 非常擅长在循环中一直工作，直到满足明确目标，这正是许多“feel the AGI”魔法出现的地方。不要只告诉它“做什么”，而要给它成功标准，然后看它去跑。让它先写测试再把测试跑通；把浏览器 MCP 接进循环；先写一个大概率正确的朴素算法，再让它在保持正确性的前提下优化。把自己的方式从命令式转成声明式，agent 就能循环更久，你也能获得更多杠杆。

乐趣。 我原本没想到，有了 agent 以后，编程反而更有趣了，因为许多填空式苦力被拿掉，剩下的是更有创造性的部分。我也更少感觉卡住，胆子更大了，因为几乎总有办法和它协作，推动一点正向进展。当然我也看到相反的感受；LLM 编程会把工程师区分成两类：真正喜欢“写代码”的人，和真正喜欢“建东西”的人。

退化。 我已经注意到，自己手写代码的能力在缓慢退化。生成（写代码）和辨别（读代码）在大脑里是不同的能力。因为编程有太多细碎、偏语法层面的细节，即使你自己已经写不太顺手了，往往仍然可以很好地审代码。

Slopacolypse。 我已经在为 2026 年做心理准备了：GitHub、Substack、arXiv、X/Instagram，以及几乎所有数字媒体都会迎来“垃圾内容大爆炸”。与此同时，AI hype productivity theater 也会更多，当然，真实而实在的改进也会更多。

问题。 我现在脑子里常想的几个问题：

“10X engineer” 会发生什么？平均工程师和顶尖工程师之间的生产率差距，也许会变得更大。
有了 LLM 之后，通才会不会越来越胜过专才？LLM 更擅长补足细节（micro），而不是制定大战略（macro）。
未来的 LLM 编程体验到底像什么？像打星际争霸？打 Factorio？还是像演奏音乐？
社会里究竟有多少工作被数字知识劳动瓶颈卡住？

TL;DR：LLM agent 能力，尤其是 Claude 与 Codex，已经跨过某个门槛。它们还远远不完美，但已经足够强到可以彻底改变默认的软件工作方式。

claude-code

everything-claude-code

claude-mythos-preview

voltagent

awesome-design-md

design-md

codex

skills

llm-wiki

anthropic

claude-code

everything-claude-code

claude-mythos-preview

cocoon-ai

everyinc

garrytan

karpathy

openai

codex

skills

ralph

shanraisshan

voltagent